查看原文
其他

详解生存分析(Survival analysis)

April 生信者言 2022-03-29

 

生存分析(Survival analysis)是研究影响因素与生存时间和结局关系的方法。简单的说就是要分析影响因素是否与结局相关,还要分析影响因素与结局出现时间关系。


生存分析中的最主要有以下几个概念:


生存时间(Survival time)是指从某起点事件开始到被观测对象出现终点事件所经历的时间,如从疾病确诊到进展/死亡的时间;生存时间有两种类型:


  • 第一种是完全数据(Complete data),指被观测对象从观察起点到出现终点事件所经历的时间;


  • 第二种是截尾数据(Consored data),截尾数据的产生主要有三个原因,失访(Loss offollow-up)、退出和终止。失访和退出都是在试验还没有结束时,研究者就已经追踪不到数据了,而终止是研究已经结束仍未观察到患者结局。截尾数据过多会影响生存分析的效果。


死亡概率(Mortality probability)是指某段时间开始时生存的个体在该段时间内死亡的可能性大小;



生存概率(Survival probability)是指某段时间开始时存活的个人至该时间结束时仍然存活的可能性大小;



以下我们简单展示两个生存分析常用的方法:Kaplan-Meier曲线和Cox比例风险模型。本次用到的数据和上期logistic用到的数据一样,都是虚构。



一、各变量的含义




二、单因素生存分析



程序如下:

data survival_analysis;

input SampleID$ Age Gender Primary_site Vascular_invasion GeneA GeneB GeneC Outcome$PFS;

if Outcome='PD' then Outcome1=1;else Outcome1=0;

cards;

T1  1    1    0    0    1    1    1    PD155

T2  1    0    0    1    1    1    1    PD247

T3  1    1    0    1    0    0    0    PD51

……

T68     0    1    0    0    0    0    0    SD 40

T69     1    1    0    0    0    0    0    SD 139

T70     1    0    0    1    1    1    1    SD 238

;

run;

proc print;

run;

proc lifetest plots=(s,ls,lls) data=survival_analysis;

*plots选项分别绘制S图,LS图和LLS图;

time PFS*Outcome1(0);

strata Age;

run;

 

以GeneB单因素分析结果为例:


GeneB突变与未突变两条生存曲线比较的假设检验结果显示,两条曲线差异有统计学意义,表明突变与未突变人群的PFS差异有统计学意义。生存曲线也直观的展示了结果。






 

所有变量的单因素生存分析结果如下,其中GeneA、GeneB、GeneC均有统计学意义。



三、Cox比例风险回归多因素分析


首先,我们将单因素分析中有意义的三个gene全部放到多因素模型中,并且用年龄和性别做分层。


程序和结果如下:

 

proc phreg data=survival_cox;

model PFS*Outcome1(0)=GeneA GeneB GeneC/risklimits;

strata age gender;

run;



似然比检验结果显示,加入三个基因后的模型与不加入基因相比,似然比有改善,P值为0.0006,表明模型有统计学意义。但是,在参数估计中我们发现原先在单因素分析中有统计学意义的GeneA和GeneB在多因素分析中不再有统计学意义,且HR接近于1,对PFS的影响很小。


是不是基因之间的交互作用导致了这个结果?我们用加入交互项的方式来分析下。


程序和结果如下:

data survival_cox;

set survival_analysis;

GeneAB=GeneA*GeneB;

GeneAC=GeneA*GeneC;

GeneBC=GeneB*GeneC;

proc phreg data=survival_cox;

model PFS*Outcome1(0)=GeneA GeneC GeneAC/risklimits;

strata age gender;

run;



加入交互项以后,我们看到GeneC有统计学意义,是一个保护性因素,GeneC突变患者发生进展的风险是未突变患者的0.177倍,即未突变患者发生进展的风险是发生进展患者的5.650倍。


GeneA和交互项GeneAC无统计学意义,我们看到交互项的参数估计值为负值,表明GeneA和GeneC有拮抗作用。由于相互作用,单因素分析中GeneA和GeneB掺杂了GeneC的作用,显得有统计学意义,但是多因素分析校正后,变得无统计学意义。

 


结论:GeneC是疾病进展的一个独立保护性因素,未突变患者进展风险高于突变患者。而GeneA和GeneB对疾病进展的影响均无统计学意义。





/End.



扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存